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ZUSAMMENFASSUNG 

Auswahl der altemativen Wortfolgen fiir diskriminative Anpassung 

Die Erfindung betrifft ein Verfahren zur diskriminativea Anpassung von 
Referenzmodellen eines Musceretkennuagssvstems, insbesondere von akustischen 
5 Referenzmodellen eines Spracherkenniingssystems, bei dem> ausgehend von einer Menge 
von gegebenen Mustem, deren PQassenzugehorigkeit jeweils bekannt ist oder geschatzt 
wird, und ausgehend von gegebenen Referenzmodellen, 

fiir eines der gegebenen Muster jeweils eine erste bewerrete Klassenzugehorigkeit unter 
Verwendung der gegebenen Referenzmodelle erzeugt wird, 
10 - bei Abweichung diesex ersten Klassenzugehorigkeit von der bekannten oder geschatzten 
Klassenzugehorigkeit diese erste Klassenzugehorigkeit als alternative 
Klassenzugehorigkeit zur bekannten oder geschatzten Klassenzugehorigkeit zugeordnet 
Wfr wird, 

anderenfails fur das gegebene Muster eine zweite bewertete Klassenzugehorigkeit unter 
1 5 Verwendung der gegebenen Referenzmodelle erzeugt wird, und, sofern der 

Unterschied in den Bewertungen der ersten und zweiten Klassenzugehorigkeit kleiner 
ist als ein ersxer SchweUwerr, diese zweite Klassenzugehorigkeit als alternative 
Klassenzugehorigkeit zur bekannten oder geschatzten Klassenzugehorigkeit zugeordnet 
wird, 

20 unter Verwendung der so bestirnrnten Zuordnung/Zuordnungen eine Anpassung von 
mindestens einem der gegebenen Referenzmodelle durchgefuhrt wird. 

Fig. 1 
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BESCHREIBUNG 

Auswahl der alternatively Wortfolgen fur diskriminative Anpassung 



'4> 



Die Erfindung betxifit ein Verfahren zur diskximinativen Anpassung von Referenz- 
5 modellen eines Mustererkennungssystems, insbesondere von akustischen Referenzmodellen 
eines Spracherkennungssystems- 

Bei der automatischen Spracherkennung, d.h. bed der maschindJen Oberfuhmng von 
gesprochener Sprache in Text, werden ublicherweise Mustererkennurigsverfahren einge- 

10 setzt. D.h., die tatsachlich gesprochene Wortfolge eines unbekanncen Sprachsignals wird 
ermittelt, indem man die Bescandceile des unbekannten Sprachsignals mit gespeicherten 
Referenzmodellen vergleicht. Diese gespeicherten Referenzmodelle erhalt man dabei 
iiblicherweise durch einen vorbereitenden Trainingssckritt, d-h. die Referenzmodelle er- 
geben sich mittels Diirchfuhrung einer Trainingsprozedur, die iiblicherweise die Existenz 

15 . einer jtvtenge von gegebenen akustischen Sprachsignalen, deren zugehorige gesprochene 
Wortfolge jeweils bekannt ist, voraussetzt. 

Ublicherweise fuhrt die Trainingsprozedur dazu, dass die Referenzmodelle u.a. eine ge- 
wisse Information uher die akustische Strukrur einer Sprache, beispiekweise also iiber die 

20 einzelnen Laute der Sprache kodieren. Diesen Teil der Referenzmodelle bezeichnet man 
daher als akustische Referenzmodelle oder kurz als akusrische Modeller Dariiber hinaus 
konnen in manchen Situationen auch noch weitere Charakteristika einer Sprache oder 
eines gewissen Ausschnitts einer Sprache trainiert werden. Beispiele dafur sind statxsrische 
Eigenschaften iiber die Abfolge der Worter oder auch Modelle iiber die grammatjsche 

25 Strukrur von Satzen» Solche Eigenschaften konnen beispielsweise in sogenannten Sprach- 
modellen (im Unterschied zu den akustischen Modellen) erfasst werden. 

Zum Training der akustischen Referenzmodelle kann man z,B. das sogenannte Maximum- 
Likelihood Training einserzen. Dabei werden die Parameter der Referenzmodelle in der 
30 Weise geschatzt, dass die bedingten Wahrscheinlichkeiten (likelihoods) 
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P{X r \W) 

(X r : Sprachsignal, Wi dazugehBrige gesprochene Wortfolge, P(X r \ W) : dureh das 
akustische Referenzmoddl gegcbcne bedingte Wahrscheinlichkeit von X r gegebenFT), 
dass die tatsachlich gesprochenen Wortfblgen die akustjschen Sprachsignale erzeugen, 
maxirniert werden. Weiterhin werden diskriminative Trainingsveifahren benutzt, die 
ublicheiweise b ere its von vorhandenen akustischen Referenzmodellen ausgehen, die zJB- 
nach der Maximum-Likelihood Methode (vor-) trainiert warden. 



10 Verfahren zum diskrirninativen Training der akustischen Referenzmodelle sind z.B. aus 1 

dem Konferenzb eitrag ^Schliiter, R-> Macherey, W., Mullet, B. und Ney, H.: A Combined 
^jjj^S Maximum Mutual Information and Maximum Likelihood -Approach for Mixture Density 

Splitting, Proa EUROSPEECH-99, pp. 1715-1718, Budapest, Hungary, 1999" bekannt. 
Die Autoren prasentieren don eine einheitliche Darstellung verschiedener bekannter 

15 di$kriminariver Tmriingsverfahren. . 

In dieser Darstellung ist es den besprochenen diskrirninativen Trainingsverfahren gemeuv- 
sam, dass sie versuchen, die Diskrirninierung zwischen der tatsachlich gesprochenen Wort- 
folge (spoken words W f ) und einer Menge von alternativen Wortfblgen (set of alternative 
20 word sequences M f ) zu optimieren. Die tatsachlich gesprochene Worrfblge (W f ) wird als 
bekannt vorausgesetzt. Die alternativen Wortfblgen sind solche Wortfblgen, die eine 
?> gewisse Ahnlichkeit" zur gesprochenen Worrfblge aufweisen. Dabei kann die tatsachlich 
gesprochene Wortfolge bei einigen diskrirninativen Verfehren selbst audi ein Element der 
Menge der alternativen Wortfblgen sein. 



25 



Eine Moglichkeh, fur ein Sprachsignal neben der bekannten gesprochenen Worrfblge eine 
solche Menge von alternativen Wbrtfolgen (M,) zu erhalten, besteht darin, einen Er- 
kennungsschritt durchzufuhren. Dabei verwendet man ein Sprachexkennungssystem, das 
nicht nur eine Wortfolge („die erkannte Wortfolge"), sondern eine Menge verschiedener 
30 Wonfblgen liefert. Diese Menge kann dabei z.B. aus einer sogenannten N-best Liste oder 
auch aus einem sogenannten Wortgraphen bestehen. Alle in der Menge enthahenen 
Wortfolgen sind dabei als mogliehes Erkennungsergebnis anzusehen, cLh. sind 
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hypothetisierte Kandidaten fur die gesprochene Wortfolge, weswegen diese Menge irn 
Folgenden ak Kandidatenmenge bezeichnet wircL Diese Kandidatenmenge ist dann eine 
mogliche Wahl fUr die Menge der alternativen Wonfolgen (M r ). 

5 Fiir die Erzeugung der Kandidatenmenge kann man auch ein Spracherken nun gssystem 
einsetzen, das zusaczlidti Rir jede Wortfolge der Kandidatenmenge eine reelle Zahl mit- 
liefert, die im Folgenden ak die Bewertung der Wortfolge bezeichnet wird, und die eine 
relative Rangordnung der Kandidarenwortfolgen in dem Sinne angibt, dass man die 
Kandidatenwortfolge mit der best en Bewertung ak „die erkannte Wortfolge" auswahlen 
10 wurde. Dementsprechend ware die Kandidatenwortfolge mit der zweitbesten Bewertung 
der zweite Kandidat fur die erkannte Wonfolge> die Z.B. als nachste benutzt werden 
. konnte, wenn in einem Dialogsystem der Benutzer die zuerst vorgeschlagene Wortfolge 

\ { mK^' mit der besten Bewertung ak fakch erkannt ziiruckweist. 

15 In der Praxis warden hSnfig Spradierkennimgssysteme verwendet, die ak Bewertung den 
negariven Logarithmus der bedingten Wahischenilichkeit (negative log-likelihood oder 
negative log-probability) benutzen, dass die Kandidatenwortfolge zu dem zu erkennenden 
Spracbsignal gehort: 

-logP(W\X r ) 

20 ( log : I^garniunusfuriktion, W : Kajididarenwonfolge, X r : Sprachsignal, * PQV \X r )i 
bedingte Wahrscheinlichkeit von Wgegehen X r ). Dabei handelt es sich bei der 
Warirschemlichkeit PQV \ X r ) nicht urn die tatsachliche Wahrscheialichkeit, die 
iiblicherweise nicht bekannt ist, sondern urn die sich aus den Referenzmodellen ergebende 
Wahrscheinttchkeit. 

Es hat sich ak gunstig erwieseri, zur Erzeugung der Kandidarenmenge ein Spracher- 
kennungssystem einzuserzen, das eben soldi eine Bewertung fur jede Kandidatenwortfolge 
lief ere, und dabei die Erzeugung der Kandida t enmenge so zu steuern> dass unter alien 
mogUchen Wonfolgen mdglichst die Kandidatenworrfolgen mit den besten Bewertungen 
30 genenert werden. Oazu setzt man geeignete Verfahren zur Begrenzung der Suche innerhalb 
der moglichen Wortfolgen ein (pruning). Teilweise werden auch sogenannte N-best Such- 
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verfahren verwendet. 

In dem Kortferenzbeitrag von Schiiiter et al. werden die Unterschiede der dort dargestellten 
diskriminativen Trainingsverfahren auf die folgenden Eigenheiten zuriickgefuhrt; 
5 - auf die Auswahl der Menge der alremariven Wonfolgen QvQ, 

auf die Gewichtung der Beweixu agsverhalt n isse der Wbrtfolgen (Schluter et al. 

verweriden den Logarithmus und mit eiaem Exponenten a potenzierte 

Wahrscheinlichkeiten (probabilities).) und 

auf die Glattung der gewichteten Bewertungsverhaltnisse der einzelnen aJcustiscken 
10 Sprachsignale der Trainingsmenge (smoothing function f). 

Fiir das Verstandnis der voriiegenden Erfindung ist es niitzlich, speziell die beiden von 
Schiiiter et al vorgestellten diskriminativen Trainingsverfahren des korrekriven Trainings 
(corrective training, GT) und des faisifizierenden Trainings (falsifying training, FT) zu 
15 betrachten. Diese zwei Verfahren benutzen beide jeweils nur genau eine alternative Wbrt- 
folge in der Menge der alternativen Wortfblgen (M f )> weswegen sie weniger komplex sind 
als die anderen von Schiiiter et al. vorgestellten Verfahren, die (zumindest potentiell) je- 
weils mehr als eine Worrfolge in der Menge der alternativen Worrfolgen (M x ) verwenden. 

20 Das falsifizierende Training weist dabei gegeniiber dem korrekriven Training den Vorteil 
auf, dass es die Trainingsmenge der gegebenen akustischen Sprachsignale besser ausnutzt, 
indem es fur das Training der akustisehen Referenzmodelle auch die richtig erkannten 
akustischen Sprachsignale verwendet> wahrend das korrektive Training nur die falsch 
erkannten benutzt. Dies ftihrt iiblicherweise zu einer besseren Scharzung der akustischen 

25 Referenzmodelle, d-h. Spracherkermungssvsterne, die mit falsifizierendem Training er- 
zeugte akustische Referenzmodelle verwenden, weisen in der Regel niedrigere Pehlerraten 
in der Erkennung auf als solche, die mit korrektivem Training erzeugte akustische 
Referenzmodelle verwenden- 

30 Dieser Vorteil des ftlsifizierenden Trainings gegeniiber dem korrekriven Training bringt 
jedoch einige prakrische Nachteile mit sieh. Es wird eine Glattungsfunktion (smoothing 
function/) verwendet, die erst im Experiment optimiert werden kann und die Komplexi- 
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tat des Verfahrens erhdht. Wejter vergrofiert sich durch die Benutzung aller akustischen 
Sprachsignale in der Menge der gegebenen akustischen Sprachsignale der Rechenaufwand 
beim Training der akustischen Referenzmodelle* 

5 Aufgabe dex Erfindung ist es daher, ein Verfahren der eingangs genannten Art anzugeben, 
desseh Menge der alternativen Wortfblgen (M,) jeweils aus genau einer alternativen Wort- 
folge besteht und das die Trainiogsmenge der gegebenen akustischen Sprachsignale gar 
ausnutzt, aber eine geringere Komplcxttar besirzt und niedrigeren Rechenaufwand er- 
fordert ab das falsifizierende Training. 

Die Aufgabe wird durch ein Verrahrertgernafi Patentanspruch 1 gelost. 

Die Grundidee des im Patentanspruch 1 genannten Verfahrens besteht darin, neben den 
falsch erkannten akustischen Sprachsignalen aus der Menge der gegebenen akustischen 
Sprachsignale auch diejenigen richtig erkannten zu mitzen, die wesentlich zur Ver- 
besserung des Trainings der akustischen Referenzmodelle beitragen. Im Gegensatz zum 
falsifrzierenden Training wird jedoch nicht notwendigerweise eine Glatrungsfunktion 
verwendet und es werden auch nicht notwendigerweise alle richtig erkannten akustischen 
Sprachsignale benutzt. Start dessen wird ein erster Schwellwert zur AuswaU der richtig 
erkannten akustischen Sprachsignale benutzt, fur die eine Zuordnung einer alternativen 
Wortfblge zur gesprochenen Wonfolge des akustischen Sprachsignals erfblgt, 

Abkiirzend wuxde in obigem Absatz davon ausgegangen, dass die zu einem gegebenen 
Sprachsignal erzeugte ente und ggf. auch die zweite Wortfolge durch einen Erkennungs- 
schritt generiert wurde, weshalb von richtig und falsch erkannten akustischen Sprach- 
signalen gesprochen wurde. Der Gegensxand der Erfindung ist jedoch nicht darauf be- 
schrankt, einen solchen Erkennungsschritt duxchzirfuhren, sondern gilt fur alle Er- 
zeugungsverfahren. 

Weiterhin ist die Erfindung nicht darauf beschrankt, dass die Anpassung der akustischen 
Referenzmodelle durch einen diskiiminativen Trainingsschrirr erfojgt. Sie umfasst auch alle 
anderen Ausfuhrungsfbrmen, die zur Anpassung der Referenzmodelle die erfxndungsgemafi 



Datum 17.10.00 15:12 FAXG3 Nr: 318906 von NVS:FAXG3.I0.0201/00241 704070 (Seite 9 von 30) 




17.OKT.2000 15=14 



CIP-DE RPCHEN 



NR. 930 S. 10/30 



PHDE000183 



bestimmten Zuordnungen der jeweils alternativen Wortfolge verwenden. Dazu gehdren 
z.B. audi diskriminative Adaptionsverfahren, Bei diesen Adapttonsverfahren wild die 
Trainingsrnenge der gegebenen akustischen Sprachsignale audi als Adaptionsmenge be- 
zeichnet. 

5 

Im abhangigen Anspruch 2 wird spezifiziert> dass zur Anpassung der akustischen Referenz- 
modelle nur die im Anspruch 1 explizit vorgesehenen Zuordnungen verwendet werden. 

Die abhangigen Anspriiche 3 bis 6 beziehen sich auf Erfuidungsvarianten, die durch 
10 Benutzung eines zweiten Schwellwertes die Trainingsmenge der gegebenen akustischen 
Sprachsignale verkleinern, Verfahren zur Besrimmung des ersten und zweiten Schwell- 
wertes angcben und die vorab beschriebenen Verfahren zur Anpassung der akustischen 
Referenzmodelle als Baustein in einem fur die diskriminarive Anpassung tiblichen 
Iteraiionszyklus benutzen. Auf diese Art erhalt man ein vollstandiges Anpassungsverfahren 
15 fur akustische Referenzmodelle^ das einfacher und in der Reehenzeit sparsamer ist als das 
bekannte falsifizierende Training. 

Wahrend bei den vorhergehenden Anspriichen vorausgesetzt wurde, dass jeweils die ge- 
sprochene Wortfolge der gegebenen akustischen Sprachsignale bekannt ist, bezieht sich die 
20 Erfindung in Anspruch 7 auf den Fall, dass die gesprochene Wortfolge nicht bekannt ist, 
sondern geschatrt wird (unsupervised adaptation)- Indem diese geschatzte Wortfolge die 
gesprochene Wortfolge ersetzt, lassen sich alle vorher bezeichneten Verfahren ansonsten 
iinverandert weiterhin durchfiihren. Zur Schatzung der unbekannten gesprochenen 
Wortfolge kann dabei z.B. ein Spracherkennungssystem eingesetzt werden. 



25 



30 



Die Erfindung bezieht sich aber in Anspruch 8 audi auf die Referenzrnodelle selbst, die 
mirrels eines der o.g. Verfahren zur diskriminariven Anpassung dies ex Modelle erzeugc 
wurden, sowie im Anspruch 9 auf einen Datentr3ger> der solche Modelle speicherr, und in 
Anspruch 10 auf ein Spracherkennungssystem, das solche Modelle verwendet. 

Im Anspruch 1 1 wird die Erfindung fur die diskriminative Anpassung der ReferenzmodeiJe 
ailgemeiner Mustererkermungssysteme, von denen das vorher besprochene Spracher- 
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kennungssystern einen Speziafiall darstellt, beansprucht. 

In Anspruch 12 bezieht sich die Erfindung auf die Referenzmodelle selbst, die mitiels eines 
der genannten Verfahren zur diskriminativen Anpassung dieser Modelle erzeugt wurden, 
5 sowie im Anspruch 13 auf einen Datentrager, der solche Modelle speichert, und in An- 
spruch 14 auf ein Mustererkennungssystem, das solche Modelle verwendet. 



Diese und weitere Aspekte und Vorteile der Erfindung werden im Folgenden an Hand der 
10 Ausfiihrungsbeispiele und uisbesondere an Hand dei beigefugten Zeichnungen naher er- 
latlterc Rs Zcigen; 

*™ * Fig. 1 eine AiisfuJiningsform des erfindurigsgerniifien Verfahrens zur 

diskrirninativen Anpassung akustischer Referenzmodelle eines 
15 Spradierkennungssystems gema£ Anspruch 1, 

Fig. 2 eine Ausfuhrungsform der erfindungsgernafien Beschrankung der Menge 

der gegebenen akustischen Sprachsignale gemafi des kennzeichnenden Teils 
von Anspruch 3, 

Fig. 3 und 4 erfindungsgemafie Varianten von Iterationsverfahren gemafi Anspruch 6 
20 und 

Fig, 5 eine Ausfuhrungsform eines Spracherkenniingssystems ge mafi Anspruch 

10. 



Fig. 1 zeigc eine Ausfuhrungsform des erfindungsgemaCen Verfahrens zur diskriminativen 
25 Anpassung akustischer Referenzmodelle eines Spracherkennungssystems gemSi? Anspruch 1 
in Form eines Flussdiagramrns. 

Das Verfahren startet im Block 1 und geht dann iiber zu Block 2. Im Block 2 wird einer 
Zahlervariablen r der initiale Wert 1 zugewiesen: r <- 1. Danach wird die Kontrolle an 
30 Block 3 ubergeben, wo fur das r-te akustische Sprachsignal der Menge der gegebenen 

akustischen Sprachsignale unter Verwendung der gegebenen akustischen Referenzmodelle 
eine erste bewertete Wortfolge W 1 , und deren Bewertung b 1 , erzeugr werden. Danach geht 
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die Kontrolie weiter an den Entscheidungsblock 4* Dort wird die eiste Wortfolge W\ mit 
der zom r-ten akustischen Sprachsignal gehorigen gesprochenen Wortfolge W r verghchen. 

Sind die erste Wortfolge W\ und die gesprochene Wortfolge W, verschieden: W l r *W r , so 
5 geht die Kontrolie an Block 5, in dem die erste Wortfolge W\ als alternative Wbrtfolge zur 
gesprochenen Wbrtfolge W r zugeordnet wird: W* f <r W 1 ,, worauf die Kontrolie weiter an 
Block 9 geht. Sind die erste Wortfolge W L r und die gesprochene Wortfolge W, jedoch 
identisch: W% =W t , so geht die Kontrolie von Block 4 zu Block 6, in dem die zweite be- 
wertece Wortfolge W* r und deren Bewertung b 2 r erzeugt werden, worauf die Kontrolie 
10 weiter an Block 7 geht* Im Block 7 wird dann der Unterschied in den Bewertungen der 
ersten und zweiten Wortfolge mit einem ersten Schwellwert s 1 verglichen. 1st der Be- 
wertungsunterschied kleiner als dieser erste Schwellwert: b 2 f - b l r <s l9 so geht die 
Kontrolie an Block 8, in dem die zweite Wortfolge W 2 , als alternative Wortfolge zur ge- 
sprochenen Wortfolge W f zugeordnet wird: W 1 ,^* W 2 ,, worauf die Kontrolie weiter an 
15 Block 9 geht. 1st dieser Bewertungsunterschied jedoch grofier oder gjeich diesem ersten 
Schwellwert: b 2 , — b 1 , £ Sj , so geht die Kontrolie von Block 7 direkt zu Block 9- 

Im Block 9 wird untersucht, ob das r-te akustische Sprachsignal das letzte der Menge der 
gegebenen akustischen Sprachsignale war, <Lh. ob bei Abarbeitung des Verfahrens bereits 
20 alle gegebenen akustischen Sprachsignale behandelt wurden. 1st dies nicht der Fall, so geht 
die Kontrolie an Block 10, wo die Zahlervariable r um 1 inkrementiert wird: r 4- r+1, 
worauf die Kontrolie wieder in Block 3 eintritt. Wurden jedoch alle gegebenen akustischen 
Sprachsignale bereits behandelt, so geht die Kontrolie an Block 1 1, in dem unter Be- 
nutzung der so bestimmten Zuordnungen W t r die Anpassung der betrofFenen gegebenen 
^ 25 akustischen Referenzmodelle durchgefuhrt wird. Danach geht die Kontrolie an Block 12, 

in dem das Verfahren beendet wird. 

Die Erzeugung der ersten und zweiten bewerteten Wortfolge W l # und W 2 * in den Blacken 
3 bzw. 6 erfolgt dabei bevorzugt durch einen Erkennungsschritt unter Benutzung der ge- 
30 gebenen akustischen Referenzmodelle. Dazu kann ein beliebiges dem Fachmann bekanntes 
Erkennungsverfahren verwendet werden, das zum Ziel hat, zu einem gegebenen 
akustischen Sprachsignal moglichst die Wortfolgen mit den besten Bewertungen zu finden. 
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Dabei kann es durchaus voxkommen, dass zu einem gegebenen akustischen Sprachsignal 
mehrere verschiedene Wortfolgen mit derselben Bewertung gefunden werden. Es kann 
aber auch vorkommen, dass auf Grund der ublicherweise benutzten Verfahren zur Be- 
grenzung des Suchaufwandcs bei der Erkennung (pruning) nur eine einzige oder aber gar 
5 kelne Wortfolge gefunden wird. 

Fiir das erfindung^gemafie Verfahren ist es gttnstig, ein Erkennungsverfehren zu ver- 
wendeh, das im Rahmen seiner Moglichkeiten neb en der Wortfolge mit der besten Be- 
weming noch einen Wortgraphen liefert, der in kompakter Weise die bzgL ihrer Be- 

10 wertungen besten Wortfolgen mit ihren Bewertungen implizit enthalt. Aus einem solchen 
Wortgraphen lassen sich dann mit vemaltnismafiig geringem Aufwand die Wortfolgen mit 
v ( ihren Bewertungen explicit erhalten (s. z.B. B.H. Tran, P. Seide> V. Steinbiss; A word 

graph based N-best search in continuous speech recognition. Proc. ICSLP '96, 
Philadelphia, PA, pp. 2127-2130). Es ist dabei nicht norwendig, dass das eingesetzte 

15 Erkennungsverfahren die Wortfolgen mit den tatsachlich besten Bewertungen findet, 
sonder n es gemlgc, wenn es dies in dem Fachmann bekannter Weise approxirnativ tut. 

Als erste bewertete Wortfolge W l r wird vorteilhaft die von dem Erkennungsverfahren 
direkt gdieferte 'Wortfolge mit der besten Bewertung genommen.' Gibt es dabei mehrere 
20 verschiedene Wortfolgen mit derselben besten Bewertung, so kann willkurlich eine be- 
liebige davon als erste bewertete Wortfolge W* r verwendet werden- Ublicherweise liber- 
nimmt das Erkennungsverfahren diese Auswahl, da es die Wortfolgen ohnehin auf Grund 
seiner internen Struktur in einer bestimmten Reihenfolge erzeugt. 

\ 25 Die zweite bewertete Wortfolge W 2 , wird vorteilhaft als die zweitbeste Wortfolge aus dem 

^ vom Erkennungsverfahren gelieferten Wortgraphen extrahiert. Gibt es dabei mehrere ver- 

schiedene Wortfolgen mit derselben besten Bewertung, so besitzen die erste und die zweite 
bewertete Wortfolge W 1 , und W 2 , denselben Zahlenwert als Bewertung. Hier ist dann bei 
Anwendung des Extrakrionsverfahren darauf zu achten, dass als zweite bewertete Wortfolge 
30 eine zur ersten bewerteten Wortfolge verschiedene erzeugt wird: W* r ^=W t r . Dies lasst sich 
z.B. durch einen geeigneten Aufbau des Extrakrionsverfahrens exxeichen (s. den o.g. 
Aufsatz von Tran et aL). 
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Immer ist bei der Erzeugung der zweiten bewerteten Wortfolge W 2 , darauf zu achten, dass 
diese sich von der ersten bewerteten Wortfolge W* r unterscheidet; W 2 f *W\> So kann es 
ixn Falle von Homophonen u*U. vorkommen, dass zwei Wortfolgen W 1 und W 2 
(akustisch) identisch sind: W^W*, wahrend ihre zugehdrigen Bewertungen b 1 und b 2 sich 
5 unterscheiden: bS*\ Soute 

zweitbesten Wortfolge auftreten, so ist durch das Erkennungsverfahren so lange die jeweik 
nachsrbeste Wortfolge zu erzeugen, bis man die erste von der ersten bewerteten Wortfolge 
W 1 , verschiedene "Wortfolge als die zweite bewertete Wortfolge W* r erhait. 

10 Fur den Fail, dass z.B. auf Grund des Prunings im Erkeiuiungsschritt gar keine Wortfolge 
fur das gegebene akustische Sprachsignal erzeugt werden konnte, wird dieses Sprachsignal 
t ^j^ fur das Vetfahren in Fig. 1 ignoriert. Konnte zwar die erste bewertete Wortfolge W* f 

erzeugt werden, so kann aber u.U. die zweite bewertete Wortfolge nicht erzeugt 
werden, z-B. wenn der Wort graph keine weiteren Wortfolgen mehr enthalt. In diesem Fall 

15 wird dieses Sprachsignal nur d a n*» verwendet, wenn die erste bewertete Wortfolge von der 
zugehbrigen gesprochenen Wortfolge abweichn W l ,^W f , so dass sich die Erzeugung der 
zweiten bewerteten Wortfolge W 2 r eriibrigt. Anderenfalls wird auch dieses Sprachs i gn a l 
ignoriert. Aus Griinden der Einfachheit warden diese Sonderfalle nicht in Fig. 1 darge- 
stellt. Die in Fig. 1 gezeigte Ausfuhrungsform der Erflndung ist jedoch inklusive dieser 

20 ' Sonderfalle zu verstehen. 

Als Bewenung einer Wortfolge J^kann der eingangs erwShnte negative Logarithmus der 
bedingten Wahrscheinlichkeit, -log PQV \ X f ) , verwendet werden. Manche Erkennungs- 
verfahren verwenden aber auch Grofien, z-T- als Score bezeichnet, die zwar in einem engen 
^ J^pl 25 Zusammenhang mit diesem negativen Logarithmus stehen, aber nicht exakt mit ihm iiber- 

einstimmen. Weitere Moglichkeiten sind die aus der Literarur bekannten Konfidenzma£e. 
Alle diese Bewertungen stellen Bewertungen im Sinne der Erflndung dar. Verwendet man 
als Beweming einen solchen negativen Logarithmus, so kann man als Unterschied 
zwischen den Bewertungen der ersten und zweiten Wortfolge W 1 , und W 2 r die Differ enz 
30 dieser Bewertungen verwenden: b\ — b* rJ was bei der Besprechung von Block 7 der Fig. I 
angenommen wurde. 
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Bei der Anpassung der betroffenen akustischen Referenzmodelle in Block 1 1 werden nur 
die vorab bemmmten Zuordnuagen der altemariven Wortfolgen W* r zu den gesprochenen 
Wortfolgen W r verwendet. Die gegebenen akustischen Sprachsignale, fur die die erste 
Wortfolge mit der zugehorigen gesprochenen Wortfolge ubereinstimmt: W 1 , = W r und fur 
5 die der Unterschied zwischen den Bewertungen der ersten und der zweiten Wortfolge 
grafier oder gkdch dem ersten Schwellwert ist: b 2 f - b\ S: s L> werden bei der Anpassung 
ignoriert. Genauso werden, wie bereits gesagt, diejenigen Sprachsignale ignoriert, fur die 
die erste bewertete Wortfolge gar nicht erzeugt werden kann, oder fur die die zweite 
bewertete "Wortfolge nicht erzeugt werden kann, wenn die erste Wortfolge mit der 
10 gesprochenen Wortfolge uberemstimmt (W l t = W r ). Start die so bezeichneten Sprach- 
signale fur die Anpassung vbllig zu ignorieren, besteht aber gnxndsarzlich auch die 
Moglichkeit, sie doch fur die Anpassung zu benutzen, in dem man fur sie die jeweils be- 
notigte Zuordnung der Menge von alternativen Wortfolgen nach einem anderen als dem 
erfmdungsgernafien Verfahren vornimmt- 

15 

Bei dem in Block 1 1 durchgefuhrten Anpassungsschritt handelt es sich urn eine diskrimi- 
native Neuschatzung der gegebenen akustischen Referenzmodelle, Je nachdem, wie diese " 
Referenzmodelle konkret gewahlt wurden (z.B. Ganzwort- oder Phonemmodelle), und 
danach, welche Zuordnungen vorab berechnei wurden, ist es mdglich, dass manche dieser 
20 Referenzmodelle in keiner dieser Zuordnungen auftauchen, d-h. dass besagte Referenz- 
modelle weder in einer der gesprochenen Wortfolgen W, der nicht ignorierten Sprach- 
signale noch in einer der zugeordneten altemariven Wortfolgen vorkommen. Es 
besteht dann die Moglichkeit, diese Referenzmodelle bei dem Anpassungsschritt auszu- 
sparen, cLh. diese Referenzmodelle in ihrer alten Form zu belassen. 

25 

Die (ibrigen in diesem Sinne „beobachteten* Referenzmodelle konnen mit einem der dem 
Fachmann bekannten diskriminativen Schatzungsverfahren neugeschatzt werden, d-h. die 
neu bestimmten Referenzmodelle treten dabei an die Stelle der bisher gegebenen Referenz- 
modelle. Bei dieser Neuschatzung ist die gesprochene Wortfolge W r von der vorab zuge- 
30 ordneten altemariven Wortfolge W\ zu diskriminieren. In der Terrninologie des eingangs 
erwahnten Aufsarzes von Schliiter et» aL besteht die Menge der alternariven Wortfolgen 
(set of alternative word sequences M r ) aus genau der alternativen Wortfolge W* f . 
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Als diskriminarive Sc^taccuii^rvcrftihicn kommen im Rahmen der Erfindixng jecct insbe- 
sondere auch die einfachen Varianten dieser Verfahren in Betracht. So lasst sich in der 
Terminologie von Schluter et. aL als Gl&tungsfiinktion (smoothing function f) genau wie 
beim korrektiven Training (corrective training, CT) auch einfach die Idenritatsfunkrion 
5 warden. Nariirlich ist aber auch wie beim falsifizierenden Training (falsifying training, FT) 
die Wahl der Sigmoidfunkrion moglich. 

Wahrend in dieser Ausfuhmngsform bei dem in Block 1 1 dargestellten Anpassungsschritc 
die nicht „beobachteten" Referenzmodelle nicht angepasst werden, ist es auch denkbar, 
10 auch diese Referenzmodelle z-B. durch ein Glattungsverrahren mit anzupassen. Aus der 
Literatur sind hier z.B* die Vektorfddglattungen (vector field smoothing) bekannt. . 

^Wr" In einet weiteren Ausfuhrungsform der Erfindung ist es vorgesehen, den in Block 1 1 

dargestellten Anpassungsschritt nicht als diskriminarive Neuschatzung, sondern als 
1 5 diskriminarive Adaprion der akUstischen Referenzmodelle durchzufuhren- Aus der 
Literatur sind mehrere Verfahren zur Adaption akustischer Referenzmodelle, cLh. der 
Anpassung der Referenzmodelle anf neue Gegebenheiten wie z.B. einen neuen Sprecher 
oder einen neuen Kanal, bekannt* Ein Beispiel ist das sogenannte MLLR- Verfahren 
(Maximum- Likelihood Linear Regression), das ein Maximum-Likelihood Kriterium 
20 optimiert, dessen Grundidee sich jedoch auch auf die Optimierung eines diskriminariven 
Kriteriums iibertragen lasst. Ein solches diskriminatives Adaprionsverfahren ist z.B. aus der 
Ver5fFentlichung *F. WaUhoff, D. Willett, G. RigolL Frame Discriminative and 
Confidence-Driven Adaptation for LVGSR. in IEEE Intern* Conference on Acoustics, 
Speech, and Signal Processing (ICASSP), Istanbul, Tiirkei, Tuni 2000" bekannt. 

Fig. 2 zeigt eine Ausfuhrungsform der erfindungsgemafien Besch rankling der Menge der 
gegebenen akustischen Sprachsignale in Form eines Flussdiagramrns. 

Das Verfahren startet in Block 20, in dem die ndrigen Iniaalisieiungen nn d insbesondere 
30 die Initial isiening der neuen Menge der gegebenen akustischen Sprachsignale und ihrer 
gesprochenen Wortfolgen zur leeren Menge 01^4-0) vorgenommen werden, und geht 
dann uber xu Block 21. Im Block 21 wird einer Zahlervariablen r der inin^l^ Wen 1 
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zugewiesen: r ^- 1. Danach wird die Kontrolle an Block 22 iibergeben, wo fur das r-te 
akustische Sprachsignal der Menge der gegebenen akustischen Sprachsignale unter 
Verwenduag der gegebenen akustischen Referenzmodelle eine erste bewertete Wortfolge 
W i r und deren Bewertung b\ erzeugt werden. Danach geht die Kontrolle weiter an den 
5 Entsdxeidungsblock 23* Dort wird die erste Wortfolge W\ mit der zum r-ten akustischen 
Sprachsignal gehorigen gesprochenen Wortfolge W r verglichen. 

Sind die erste Wortfolge W 1 , und die gesprochene Wortfolge W r verschieden: W X T 3*W M so 
geht die Kontrolle an Block 24, in dem das r-te akustische Sprachsignal X, und seine 

10 zugehorige gesprochene Wortfolge W r zur neuen Menge hinzugefugt werden: 

T PQ1 U ^ ( X r , W r ) K worauf die Kontrolle weiter an Block 27 geht. Sind die erste Wortfolge 
W* r und die gesprochene Wortfolge W, jedoch identisch: W 1 , =W„ so geht die Kontrolle 
von Block 23 zu Block 25, in dem die zweite bewertete Wortfolge W 2 , und deren Be- 
wertung b 2 ( erzeugt werden, worauf die Kontrolle weiter an Block 26 geht. Im Block 26 

15 wird dann der Unterschied in den Bewertungen der ersten und zweiten Wortfolge mit 
einem zweiten Schwellwert s a verglichen. 1st der Bewemingsunterschied kleiner als dieser 
zweite Schwellwert: b 2 t -b 1 , < so geht die Kontrolle an Block 24, in dem wie oben 
beschrieben das r-te akustische Sprachsignal X, und seine zugehorige gesprochene 
Wortfolge W, zur neuen Menge hinrugefiigc werden: <r T^^j i ( X,, W r ) K Danach 

20 geht die Kontrolle weiter an Block 27- 1st dieser Bewertungsunterschied jedoch grofier oder 
gleich diesem zweiten Schwellwert: b 2 r — b 4 r £ s 2 , so geht die Kontrolle von Block 26 direkt 
zu Block 27- 



Im Block 27 wird untetsucht, ob das r-te akustische Sprachsignal das letrte der Menge der 
25 gegebenen akustischen Sprachsignale war, d-h. ob bei Abarbeitung des Verfahxens bereits 
alle gegebenen akustischen Sprachsignale behandelt wurden. 1st dies nicht der Fall, so geht 
die Kontrolle an Block 28, wo die Zahlervariable r urn 1 inkrementiert wird: r r+1, 
worauf die Kontrolle wieder in Block 22 eintritt. Wurden jedoch alle gegebenen 
akustischen Sprachsignale bereits behandelt, so geht die Kontrolle schliefilich an Block 29, 
30 in dem die neue Menge an die Stelle der alten Menge der gegebenen akustischen Sprach- 
signale, deren gesprochene Wortfolge jeweils bekannt ist, tritt: und das 
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Verfahren beendet wird. 

Die hier beschriebene Bildung der neuen Menge der gegebenen akusrischen Sprachsignale 
und derea zukiinftige Verwendung an S telle der alten Menge kann auf verschiedene Arren 
5 speichertechnisch realisiert werden. kann die neue Menge zunachst durch Kopie der 
aus der alten Menge ausgewahlten Sprachsignale ersrellt werden, wonach dann die neue 
Menge durch Umstellung eines Speicherverweises an Stelle der alten benutzt wird, 
Alternativ kann die neue Menge aber auch als Menge von Verweisen auf die entsprechen- 
den Sprachsignale der alten Menge gebildet werden. Auch andere dem Fachmann gelaufige 
10 Ldsungen sind vorsrellbar. 

Aus dem Vergleich der beiden Flussdiagramme in den Fig- 1 und 2 sind die Gemeinsam- 
keiten der beiden dargestellten Verfahren ofFensichdich. Daher gelten zunachst die zu 
Fig. 1 gemachten Bemerkungen zur Erzeugung der ersten und zweiten bewerteten 
15 Wortfolge W 1 , und W 2 , und zur Narur der Bewertungen und des Bewertungsunter- 

schiedes auch fur Fig. 2. Weiter ist deutiich, dass sich das Verfahren aus Fig. 2 gemeinsam 
mit dem Verfahren aus Fig. 1 durchfuhren lasst, da die wesentlichen Verfahrensschritte 
wie z-B. das Erzeugen der ersten und zweiten Wbrrfolge identisch sind- Auf diesen Urn- 
stand wird noch naher bei der Beschreibung von Fig. 5 eingegangen. 



20 



25 



Die in den obigen Ausfuhrungsformen benutzten Schwellwerte s 1 und s a konnen zum 
einen als bestimmre Bewertungsunterschiede vorgegeben werden. Sie geben dann eine 
Mafizahl an, bei deren Uberschreitung die zweite Wortfolge als, intuitiv gesprocben, von 
untergeordneter Bedeutung gegenuber der ersten Wortfolge eingestuft wird. 



Die absolute Grofie der Beweming einer Wortfolge und in gewissem Mafie als Folge auch 
die absolute Grofie des Bewertungsunterschiedes zwischen zwei Wortfolgen konnen jedoch 
von Sprachsignal zu Sprachsignal stark differieren sowie weiter noch von Details des 
Spracherkennungssystem wie z,B. seinem Lexikon abhangen. Daher best eh t eine andere 
30 Moglichkeit der Bestimmung dieser Schwellwerte darin, fur jeden von ihngn eine be- 

stimmte Zahl (Qj fur Si und Q2 fur Sj) vorzugeben, die zwischen 0 und 1 liegt: 0 ^ Qj £ 1, 
0 <: ^ 1- Die Schwellwerre s t und $2 ergeben sich dann als und Q^Quantil der 
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statistischen VexteUungsfunkrion der Unterschiede in den Bewertungen der erst en und 
zweiten Wortfolge derjenigen gegebenen akustischen Sprachsignale, deren erste Wortfolge 
mit der gesprochenen Wortfolge iibereinstimmt. Zur Berechnung der Quantile konnen 
dabei narurlich nur die Sprachslgnale benutzt werden, fur die das Spracherkennungssystem 
5 sowohl eine erste als auch eine zweite Wortfolge liefert- 

Mit der Benutzung dieser Quantilmethode erreicht man also eine gewisse Unabhangigkeit 
von den Details der konkret vorgegebenen Anpassungssituarion. "Weiterhin ergibt sich eine 
einfache und naherungsweise lineaxe Steuerung des Rechenaiifwandes, da das Quantil 
10 annahernd linear roit der Groge des fur die Berechnung der Zuordnungen benutzten 
Teiles der Menge der gegebenen akusrischen Sprachsignale zusammenhangt. 

Damit bei Benutzung des zweiten SchweUwertes s 2 die Steuerung durch den ersten 
Schwellwert s L noch seine Wirkung entfalten kann, muss $2 grofier als s t gewahlt werden: 
15 s 2 > s x . Entsprechend muss bei Benutzung der Quantilmethode grofier als Qi gewahlt 
werden: Q2 > Qi; Zurn grundsatzlichen Funktionieren der Methode ist eine solche Wahl 
aber nicht notwendig* 

Die Fig. 3 und 4 zeigen Varianten von iterariven diskriminativen Anpassungsverfahren, bei 
20 denen ein erfindungsgemafies Verfahren nach einem der Anspriiche 1 bis 5 als einzelner 
Iterationsschritt benutzt wird. Beiden Varianten ist gemeinsam, dass das Verfahren nach 
einem der Anspriiche 1 bis 5 so lange iteriert wird, bis ein Haltekriterium erfullt ist. Fur 
dieses Haltekriterium kommen alle dem Pachmann bekannten MSglichkeiten in Betracht 
wie z.B. eine vorgegebene Zahl von Iterationsschritt en oder das Erreichen eines Minimums 
25 der Fehlerrate auf der Trainingsmenge oder auch auf einer separaten Validierungsmenge. 

Fig* 3 zeigt zunachst ein einfaches Iterarionsschema in Form eines Flussdiagramms. Das 
Verfahren startet in Block 30. Danach wird im Entscheidungsblock 31 das Haltekriterium 
gecestet. Ist dieses niche erfullt, so wird im Block 32 ein Verfahren nach einem der An- 
30 spriiche 1 bis 5 abgearbeitet, das die vorher gegebenen akustischen Referenzmodelle er- 

findungsgemafi anpasst. Nach Block 32 ist ein Iterationsschritt beendet und das Verfahren 
tritt wieder in Block 31 ein. Ist aber in Block 31 das Haltekriterium erfullt, so geht die 
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Kontrolle an Block 33, in. dem das Verfahren beendet wird. 

In Fig- 4 wird dieses einfache Iterationsschema urn einen vor der eigendichen 
Ireratlonsschleife liegenden Block 44 erweitert. DJb. die Blocke 40 bis 43 entsprechen den 
5 Blocken 30 bis 33 der Fig. 3. Gleiches gilt fur die Obergange zwischen diesen Blocken mit 
der Ausnahme, dass in Fig- 4 der Block 44 zwischen die Blocke 40 (Start) und 41 (Test des 
Haltekriteriurns) geschoben ist. 

Bei Block 44 handelt es sich urn eine Abarbeitung eines Verfahren nach Anspruch 3. D.h. 

10 es wird bereits wie z-B. in Fig. 1 dargestellt eine Anpassung der akustischen Referenz- 

modelle vorgenommen. Gleichzeitig wird durch die gemeinsame Abarbeitung eines Ver- 
fahrens gemafi Fig, 2 die gegebene Mange der akustischen Sprachsignale und ihrer zuge- 
horigen gesprochenen Wortfolgen unter Verwendung eines zweiten Schwellwerces s 2 
eingeschrankt. Wie weiter oben erwahnt ist diese gemeinsame Abarbeitung der in den 

15 Fig. 1 und 2 dargestellten Verfahren wegen ihrer gxoBen Gemeinsamkeiten problemlos 
moglich. 

Bei der Anpassung der akustischen Referenzmodelle in Block 44 werden in jedem Fall nur 
die Zuordnungen von alternativen Wortfolgen zu den gesprochenen Wortfolgen der ge- 
20 gebenen akustischen Sprachsignale, die zu der unter Verwendung des zweiten Schwell- 
werces s a eingeschrankten Menge gehoren, verwendet* Ist also der zweite SchweUwert 
kleiner als der erste SchweUwert: s 2 < s l3 so bestirnmt allein der zweite SchweUwert s^ 
welche Zuordnungen benutzt werden, und der erste SchweUwert s, ist ohne Bedeutung, 

25 1st einer oder sind beide der Schwelhverte s t und nur implizit uber die Angabe eines 
jeweiligen Quantils der VerteUung der entsprechenden Bewertungsunterschiede vorge- 
geben, so geniigt in Block 44 auch in diesem FaU zur Bestimmung der ersten und ggf. der 
zweiten Wortfolgen em einziger Durchlauf durch die Trainingsmenge der gegebenen 
akustischen Sprachsignale. Gleichzeitig ergeben sich dadurch die benorigten SchweUwerte 

30 s l und $2 in explizitex Form. 

Dazu sind die in den Fig. 1 und 2 dargestellten Verfahren folgendermafien abzuSndern: 
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Beim Duxchkuf durch die Tnutungsmenge werden zunachst nur jeweils ihre crste Wort- 
folge W 1 , , deren Bewertung b l r and ggf. (wenn W 1 , =W,) ihre zweite Wortfolge W* ( and 
deren Bewertung b 2 f erzeugt. Weiter wird in den Fallen, in denen die erste Wortfolge von 
der gesprochenen Wortfolge abweicht: W* r *W r> auch bereits die Zuordnung der 
5 alternativen Wortfolge zur gesprochenen Wortfolge vorgenommen: W% <- W*„ und dieses 
Sprachsignal X, und seine gesprochene Wortfolge W r in die neue Menge der gegebenen 
akustischen Sprachsignale ubernommen: T pa( .<- T^u i ( X,, W r ) K 

In den anderen Fallen werden zunachst nur die zweite Wortfolge W 2 , sowie ihr Be- 
10 weitun^unterschied.b a r - b\ gespeichert. Aus der Menge der gespeicherten BewertUQgs- 
unterschiede lassen sich die gewunschten Schwellwerte s 1 und % als Quantile der Vex- 
teilung dieser Bewertungsunterschiede explizit erhalten. Mit dem Schwellwert s t lassen 
sich dann aus der Menge der gespeicherten Bewertungsunterschiede und der gespeicherten 
zweiten Wortfolgen die noch fehlenden Zuordnungen der alternariven Wortfolgen er- 
1 5 halten: W c W 2 r sofern b\ — b l r < s l (Beachte: Bei diesen gespeicherten Wonfolgen war 
W* r =W r ). Weiter lassen sich mit dem Schwellwert s 2 aus der Menge der gespeicherten 
Bewertungsunterschiede die weiteren Sprachsignale X, und ihre gesprochenen Wortfolgen 
W r in die neue Menge der gegebenen akustischen Sprachsignale ubemehmeni T aou ^ 
T^w i ( X; W r ) Kofern b 2 r - b 1 , < s 2 . 

20 

, Wenn, anders als bisher angenommen, die gesprochene Wortfolge eines gegebenen 
akustischen Sprachsignals der Trainingsmenge nicht bekannt ist, kann das erfindungs- 
gemafie Verfahren in abgeanderter Form noch immer angewendet werden. Dazu nimmt 
man z.B. mit Hilfe eines Spracherkennungssystem eine Schatzung der (unbekannten) 
25 gesprochenen Wortfolge vor, Diese geschatzte Wortfolge tritt dann an die SteUe der 

(unbekannten) gesprochenen Wortfolge. Damit lassen sich alle vorher bezeichneten Ver- 
fahren ansonsren unverandert weiterhin durchfuhren. Als Schatzung der unbekannten ge- 
sprochenen Wortfolge kann z.B. auch die unter Verwendung der gegebenen akustischen 
Referenzmodelle erzeugte erste bewertete Wortfolge W 1 , benutzt werden. 



30 



Obwohl die Erfindung bisher im Kontext der Anpassung akustischer Referenzmodelle 
eines Sprajcherkennungssystems beschrieben wurde, ist sie in gleicher Weise bei der 
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diskriminativen Anpassung der Referenzmodelle aUgemeiner Musrererkennimgssysteme 
anwendbar. An die Stelle der akustischen Referenzmodelle ernes Sprachcrkennixngssysrems 
treten die Referenzmodelle des Mustererkennungssystems. An die Stelle der Menge der 
gegebenen akustischen Sprachsignale, deren zugehbrige gesprochene Wortfolge jeweils 
5 bekannt ist oder aber geschatzt wird* rritt die Menge der Traiiiingsmuster, deren Klassen- 
zugehorigkeit jeweils bekannt ist oder aber geschatzt wird. An die Stelle der ersten und 
zweiten bewerteren Wortfolge eines gegebenen akustischen Sprachsignals treten die erste 
und zweite bewertete Klassenzugehorigkeit eines gegebenen Trainingsmusters, An die Stelle 
der Zuordnung einer alternativen Wortfolge tritt die Zuordnung einer altemariven 
10 Klassenzugeharigkeit. Mit diesen Ersetzungen sind die ftir Spracherkennungssysteme bean- 
spruchten Verfahren ansonsten unverandert fur allgemeine Mustererkennungssysteme 
durchfuhrbar. 

Fig. 5 zexgt die Gnondstruktur eines Spracherkennujigssystems, insbesondere eines Dikiier- 

15 systems (2. B, FreeSpeech von Philips), als Spezialfall eines allgemeinen Mustered 

kennungssystems. Ein eingegebenes Sprachsignal 50 wird einer Funktionseinheit 51 zuge- 
fiihrt, die fur dieses Signal erne Merkmalsextraktion (feature extraction) durchfuhrt und 
dabei Mexkmalsvekxoren 52 erzeugt, die einer Verarbeitiingseinheit 53 (matching unit) 
zugefuhrt werden. In der Verarbdtungseinheit 53, die das Erkennungsergebnis 58 er- 

20 mittelt und ausgibt, wird in der bekannten Weise eine Pfadsuche duxchgefuhrt, wobei ein 
akustisches Modell 54 (acoustic model) und ein Sprachmodeil 55 (language model) einge- 
setzt werden- Das akustische Modell 54 umfassr einerseirs Modelle fur Womrntereinheiten 
wie beispiejsweise Triphone, denen akustische Referenzmodelle 56 zugeordnet sind, und 
ein Lex ikon 57, das das verwendete Vokabular reprasentiert und mogliche Folgen von 

25 Wommtereinheiten vorgibt. Die akustischen Referenzmodelle korrespondieren zu Hidden 
Markov Modellen. Das Sprachmodeil 55 gibt N-Gramrn^Wahrscheinlichkeiten an. 
Insbesondere wird ein Bigramm- oder ein Trigramm-Sprachmodell verwendet. Nahere 
Erlauterungen zum Aufbau dieses Spracherkennungssystems lassen sich beispieUweise der 
WO 99/18556 entnehmen > deren Inhalt hiermit in diese Patentanmeldung einbezogen 

30 wird. 
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1 . Verfahren zur diskriminariven Anpassung akustischer Referenzmodelle eines 
Spra-cherkennungssystems, bei dem, ausgehend von einer Menge von gegebenen 

e akustischen Sprachsignalen, deren zugehorige gesprochene Wortfolge jeweils bekannt 1st, 

und ausgehend von gegebenen akustischen Refererizrnodellen, 
5 - fur eines der gegebenen akustischen Sprachsignale jeweils eine erste bewertete 

Wortfolge unter Verwendung der gegebenen akustischen Referenzmodelle erzeugt 

bei Abweichung dieser ersten Wbnfolge von der gesprochenen Wortfolge diese erste 
Wortfolge als alternative Wortfolge zur gesprochenen "Wbnfolge zugeordnet wird, 
10 - anderenfalls fur das gegebene akustische Sprachsignal eine zweite bewertete Wortfolge 
unter Verwendung der gegebenen akustischen Ref erenzmo delle erzeugt wird, und, 
sofern der Unterschied in den Bewertungen der ersten und zweiten Wortfolge kleiner 
ist als ein erster Schwellwert, diese zweite Wortfolge als alternative Wortfolge zur 
gesprochenen Wortfolge zugeordnet wird, 
15 - unter Verwendung der so bestimmteh Zuordnung/Zuordnungen eine Anpassung von 
mindestens einem der gegebenen akustischen Referenzmodelle durchgefuhrt wird. 

2. Verfahren zur diskriminativen Anpassung akustischer Referenzmodelle eines 
Spracherkennuxigsqrsterns nach Anspruch 1, 

ftj^ 2,0 dadurch gekennzeichnet. 

*3 rlaog die zu denjenigen gegebenen akustischen Sprachsignalen, deren erste Wortfolge rnit 

der gesprochenen Wortfolge ubereinstimmt und deren Unterschied in den Bewertungen 
ihrer ersten und zweiten Wortfolge grower oder gleich ist als der erste Schwellwert* 
geharigen Zuordnungen nicht zur Anpassung irgendwelcher der gegebenen akustischen 
25 Referenzmodelle benutzt werden. 
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3. Verfahren zui diskrirninativen Anpassung akustischer Referenzmodelle eines 
Spracherkennungssystems nach Anspruch 1 oder 2, 
dajdurch gekennzeichnet> 

dass aus der Menge von gegebenen akustischen Sprachsignalen diejerdgen Sprachsignale 
ausgeschlossen werden, deren eiste Wortfolge mit der gesprochenen Wortfolge 
ubereinstimmt und deren Unterschied in den Bewertungen ihrer ersten und zweiten 
Wortfolge grofier oder gleich ist als ein zweiter Sdiwellwert, und auf diese Weise eine neue 
Menge von gegebenen akustischen Sprachsignalen gebildet wird, die an die Steile der alien 
Menge von gegebenen akustischen Sprachs ignalen tritt, 



4* Verfahren zur diskriminativen Anpassung akustischer Referenzmodelle eines 
Spracherkennungssvstems nach einem der Anspriiche 1 bis % 
dadurch gekennzeichnet* 

dass als erster Schwellwert ein erstes bestimmtes Quantil der statistischen Verteilung dex 
15 Unterschiede in den Bewertungen der ersten und zweiten Wortfolge derjenigen gegebenen 
akustischen Sprachsignale, deren erste Wortfolge mit der gesprochenen Wortfolge 
ubereinstimmt, verwendet wircL 

5. Verfahren zur diskriminativen Anpassung akustischer Referenzmodelle eines 
20 Spracherkennungssystems nach einem der Anspruche 3 bis 4, 

dadurch gekennzeiehner. 

dass als zweiter Schwellwert ein zweires bestimmtes Quantil der statistischen Verteilung der 
Unterschiede in den Bewertungen der ersten und zweiten Wortfolge derjenigen gegebenen 
akustischen Sprachsignale, deren erste Wortfolge mit der gesprochenen Wortfolge 
25 ubereinsrimmt, verwendet wird. 

6. Verfahren zur diskriminativen Anpassung akustischer Referenzmodelle eines 
Spracherkennungssystems, bei dem bis zum Erreichen eines Haltekriteriurns ein Verfahren 
gemafi einem der Anspruche 1 bis 5 wiederholt eingeserzt wird, 

30 
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7, Verfahren zur diskriminativen Anpassung akusrischer Rfiferenzmodelle eines 
Spracherkennungssysterns, bei dem, ausgehend von einer Menge von gegebenen 
akustischen Sprachsignalen, deren zugehorige gesprochene Wortfolge jeweils bekannt 1st 
oder geschatzt wird, und aiisgehend von gegebenen akustischen RdFerenzrnodellen, 
5 - fur eines der gegebenen akustischen Sprachsignale jeweils eine erste bewertete 

Wortfolge unter Verwendung der gegebenen akustischen Referenzmodelle eizeugt 

wird, 

bei Abweiehung dieser ersten Wortfolge von der bekannten oder geschatzten Wortfolge 
diese erste Wortfolge als alternative Wortfolge zur bekannten oder geseh&tzten / 

10 Worrfolge zugeordnet wird, 

anderenfalls fur das gegebene akusrische Sprachsignal eine zweite bewertete Wortfolge 
unter Verwendung der gegebenen akustischen Referenzmodelle erzeugt wird, und, 
sofern der Unterschied in den Bewemingen der erst en und zweiten Wortfolge kleiner 
ist als ein erster Schwelhvert, diese zweite Wortfolge als alternative Wortfolge zur 

15 bekannten oder geschatzten Wortfolge zugeordnet wird, , 

unter Verwendung der so bestimmten Zuordnung/Zuordnungen eine Anpassung von 
mindestens einem der gegebenen akustischen Referenzmodelle durchgefuhrt wird- 

8. Akusrische Referenzmodelle eines Spracherkennungssystems, die unter Benutzung eines 
20 Verfahrens gemafi einem der AnsprUche 1 bis 7 erzeugt wurden. 

9. Darentrager mit akustischen Referenzmodellen eines Spracherkennungssystems nach 
Anspruch 8. 

25 10. Spracherkennungssystem mit akustischen Referenzrnodellen nach Anspruch 8. 



30 
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11. Verfahren zur diskriminativen Anpassung Von Referenzmodellen eines 
Mustererkenaungssystems, bei dem, ausgehend von einer Menge von gegebenen Mustern, 
deren Klassenziigehorigkeit jeweils bekannt ist oder geschatzt wird, und ausgehend von 
gegebenen Referenzmodellen, 
5 - fur eines der gegebenen Muster jeweils elne erste bewertete Klassenztigehorigkeit unter 
Verwendung der gegebenen Referenzmodelle erzeugt wird, 

bei Abweichung dieser ersten Klassenzugeh origkeit von der bekannten oder geschSrzten 
KLissenzugehorigkeit diese erste Klassenzugeh&rigkeit als alternative 
Klassenzugeh origkeit zur bekannten oder geschatzten Klassenzugehorigkeit zugeordnet 
10 wird, 

anderenfalls fur das gegebene Muster eine zweite bewertete Klassenzugeh5rigkeit unter 
Verwendung der gegebenen Referenzmodelle erzeugt wird> und* sofern dex 
Uncerschied in den Bewertungen der ersten und zweiten Klassenzugehorigkeit kleiner 
ist als ein erster Schwellwerr* diese zweite Klassenzugehorigkeit als alternative 
1 5 Klassenzugehorigkeit zur bekannten oder gesehatzren Klassenzugehorigkeit zugeordnet 

wird, 

unter Verwendung der so bestimmten Zuordnung/Zuordnungen eine Anpassung von 
mindestens einem der gegebenen Referenzmodelle durchgefuhrt wireL 

20 12- Referenzmodelle eines Mustererkennungssystems, die unter Benutzung eines 
Vcxfahrens gemafi Anspruch 1 X erzeugt wurden. 

13- Datentrager mit Referenzmodellen eines Musxererkennungssysterns nach Anspruch 12. 
25 14. Mustererkennungssystem mit Referenzmodellen nach Anspruch 12. 
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